数据基本处理
数据基本处理
对数据进行缺失值、异常值、重复数据、类型与格式等“基础清洗”,让数据具备可建模的最小质量。
常见处理项
- 缺失值
- 删除:缺失比例很小且随机缺失时更常见
- 填充:均值/中位数/众数、前向/后向填充、按组填充
- 异常值
- 识别:箱线图/IQR、Z-score、业务规则
- 处理:截断(winsorize)、删除、单独标记为特征
- 重复与一致性
- 去重:完全重复样本、重复主键
- 类型/单位统一:日期解析、数值单位换算、类别值标准化
- 类别与文本
- 类别编码、文本清洗通常属于 特征工程,但也会和基础清洗交织
与后续步骤的边界
- “清洗”解决数据是否可用
- 特征工程 解决数据是否更适合算法(例如标准化、One-Hot、降维)